Despite the huge advancement in knowledge discovery and data mining techniques, the X-ray diffraction (XRD) analysis process has mostly remained untouched and still involves manual investigation, comparison, and verification. Due to the large volume of XRD samples from high-throughput XRD experiments, it has become impossible for domain scientists to process them manually. Recently, they have started leveraging standard clustering techniques, to reduce the XRD pattern representations requiring manual efforts for labeling and verification. Nevertheless, these standard clustering techniques do not handle problem-specific aspects such as peak shifting, adjacent peaks, background noise, and mixed phases; hence, resulting in incorrect composition-phase diagrams that complicate further steps. Here, we leverage data mining techniques along with domain expertise to handle these issues. In this paper, we introduce an incremental phase mapping approach based on binary peak representations using a new threshold based fuzzy dissimilarity measure. The proposed approach first applies an incremental phase computation algorithm on discrete binary peak representation of XRD samples, followed by hierarchical clustering or manual merging of similar pure phases to obtain the final composition-phase diagram. We evaluate our method on the composition space of two ternary alloy systems- Co-Ni-Ta and Co-Ti-Ta. Our results are verified by domain scientists and closely resembles the manually computed ground-truth composition-phase diagrams. The proposed approach takes us closer towards achieving the goal of complete end-to-end automated XRD analysis.
translated by 谷歌翻译
我们建议一个基于深入强化学习的经理工作框架,以解决旅行推销员问题(TSP)的艰难而又非平凡的变体,\ ie〜有时间窗口和拒绝(MTSPTWR)的多车辆TSP(MTSPTWR),在此之前无法服务的客户截止日期将受到拒绝。特别是,在拟议的框架中,经理代理人通过基于图形同构网络(GIN)的策略网络将客户分配给每辆车,从而将MTSPTWR分为子路由任务。工人代理人通过根据每辆车的旅行长度和拒绝率来最大程度地降低成本来解决子路由任务,然后将其最多的最大值送回经理代理以学习更好的任务。实验结果表明,所提出的框架在更高的解决方案质量和较短的计算时间方面优于强基础。更重要的是,训练有素的代理商还取得了竞争性能,以解决看不见的较大实例。
translated by 谷歌翻译
通用数据模型解决了标准化电子健康记录(EHR)数据的许多挑战,但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论(OBO)铸造本体论提供了可用于生物学知识的语义计算表示,并能够整合多种生物医学数据。但是,将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架,用于将观察性医学成果合作伙伴关系(OMOP)标准词汇介绍给OBO铸造本体。使用此框架,我们制作了92,367条条件,8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性,并且在24家医院进行检查时,映射覆盖了99%的条件和药物成分和68%的测量结果。最后,我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。
translated by 谷歌翻译
口服食物挑战(OFC)对于准确诊断患者的食物过敏至关重要。但是,患者不愿接受OFC,对于那些这样做的患者,在农村/社区医疗保健环境中,对过敏症患者的使用率有限。通过机器学习方法对OFC结果的预测可以促进在家中食品过敏原的删除,在OFC中改善患者和医师的舒适度,并通过最大程度地减少执行的OFC的数量来节省医疗资源。临床数据是从共同接受1,284个OFC的1,12例患者那里收集的,包括临床因素,包括血清特异性IgE,总IgE,皮肤刺测试(SPTS),症状,性别和年龄。使用这些临床特征,构建了机器学习模型,以预测花生,鸡蛋和牛奶挑战的结果。每种过敏原的最佳性能模型是使用凹入和凸内核(LUCCK)方法创建的,该方法在曲线(AUC)(AUC)下分别用于花生,鸡蛋和牛奶OFC预测为0.76、0.68和0.70, 。通过Shapley添加说明(SHAP)的模型解释表明,特定的IgE以及SPTS的Wheal和Flare值高度预测了OFC结果。该分析的结果表明,机器学习有可能预测OFC结果,并揭示了相关的临床因素进行进一步研究。
translated by 谷歌翻译
合成健康数据在共享数据以支持生物医学研究和创新医疗保健应用的发展时有可能减轻隐私问题。基于机器学习,尤其是生成对抗网络(GAN)方法的现代方法生成的现代方法继续发展并表现出巨大的潜力。然而,缺乏系统的评估框架来基准测试方法,并确定哪些方法最合适。在这项工作中,我们引入了一个可推广的基准测试框架,以评估综合健康数据的关键特征在实用性和隐私指标方面。我们将框架应用框架来评估来自两个大型学术医疗中心的电子健康记录(EHRS)数据的合成数据生成方法。结果表明,共享合成EHR数据存在公用事业私人关系权衡。结果进一步表明,在每个用例中,在所有标准上都没有明确的方法是最好的,这使得为什么需要在上下文中评估合成数据生成方法。
translated by 谷歌翻译
大部分计算机生成的动画是通过用钻机来操纵网格创建的。尽管这种方法可以很好地对动物(例如动物)进行动画化的态度,但它的灵活性有限,可以使结构较低的自由形式对象进行动画化。我们介绍了WaseSplines,这是一种基于连续标准化流量和最佳运输的最新进展,用于对非结构化密度进行动画化的新型推理方法。关键思想是训练代表密钥帧之间运动的神经参数化速度场。然后,通过通过速度字段推进密钥帧来计算轨迹。我们解决了另一个Wasserstein Barycenter插值问题,以确保严格遵守关键框架。我们的工具可以通过各种基于PDE的正规化器来对轨迹进行风格化轨迹,从而创造出不同的视觉效果。我们在各种关键框架插值问题上演示了我们的工具,以制作时间连接动画而无需嵌入或索具。
translated by 谷歌翻译
肺癌是最致命的癌症之一,部分诊断和治疗取决于肿瘤的准确描绘。目前是最常见的方法的人以人为本的分割,须遵守观察者间变异性,并且考虑到专家只能提供注释的事实,也是耗时的。最近展示了有前途的结果,自动和半自动肿瘤分割方法。然而,随着不同的研究人员使用各种数据集和性能指标验证了其算法,可靠地评估这些方法仍然是一个开放的挑战。通过2018年IEEE视频和图像处理(VIP)杯竞赛创建的计算机断层摄影扫描(LOTUS)基准测试的肺起源肿瘤分割的目标是提供唯一的数据集和预定义的指标,因此不同的研究人员可以开发和以统一的方式评估他们的方法。 2018年VIP杯始于42个国家的全球参与,以获得竞争数据。在注册阶段,有129名成员组成了来自10个国家的28个团队,其中9个团队将其达到最后阶段,6队成功完成了所有必要的任务。简而言之,竞争期间提出的所有算法都是基于深度学习模型与假阳性降低技术相结合。三种决赛选手开发的方法表明,有希望的肿瘤细分导致导致越来越大的努力应降低假阳性率。本次竞争稿件概述了VIP-Cup挑战,以及所提出的算法和结果。
translated by 谷歌翻译
使用计算笔记本(例如,Jupyter Notebook),数据科学家根据他们的先前经验和外部知识(如在线示例)合理化他们的探索性数据分析(EDA)。对于缺乏关于数据集或问题的具体了解的新手或数据科学家,有效地获得和理解外部信息对于执行EDA至关重要。本文介绍了eDassistant,一个jupyterlab扩展,支持EDA的原位搜索示例笔记本电脑和有用的API的推荐,由搜索结果的新颖交互式可视化供电。代码搜索和推荐是由最先进的机器学习模型启用的,培训在线收集的EDA笔记本电脑的大型语料库。进行用户学习,以调查埃迪卡斯特和数据科学家的当前实践(即,使用外部搜索引擎)。结果证明了埃迪斯坦特的有效性和有用性,与会者赞赏其对EDA的顺利和环境支持。我们还报告了有关代码推荐工具的几种设计意义。
translated by 谷歌翻译
模型的可解释性对于许多实际应用是必不可少的,例如临床决策支持系统。在本文中,提出了一种新的可解释机学习方法,可以模拟人类理解规则中的输入变量与响应之间的关系。该方法是通过将热带几何形状应用于模糊推理系统构建的,其中通过监督学习可以发现可变编码功能和突出规则。进行了使用合成数据集的实验,以研究所提出的算法在分类和规则发现中的性能和容量。此外,将所提出的方法应用于鉴定心力衰竭患者的临床应用,这些患者将受益于心脏移植或耐用的机械循环支撑等先进的疗法。实验结果表明,该网络在分类任务方面取得了很大的表现。除了从数据集中学习人类可理解的规则外,现有的模糊域知识可以很容易地转移到网络中,并用于促进模型培训。从我们的结果,所提出的模型和学习现有领域知识的能力可以显着提高模型的概括性。所提出的网络的特征使其在需要模型可靠性和理由的应用中承诺。
translated by 谷歌翻译
我们考虑从多个移动设备收集的测量预测蜂窝网络性能(信号映射)的问题。我们制定在线联合学习框架内的问题:(i)联合学习(FL)使用户能够协作培训模型,同时保持其培训数据; (ii)由于用户移动随着时间的推移,并且用于以在线方式用于本地培训,因此收集测量。我们考虑一个诚实但很好的服务器,他们使用梯度(DLG)类型的攻击深泄漏来观察来自目标用户的更新,并使用深度泄漏(DLG)类型的攻击,最初开发的是重建DNN图像分类器的训练数据。我们使应用于我们的设置的DLG攻击的关键观察,Infers Infers Infers批次的本地数据的平均位置,因此可以用于以粗糙粒度重建目标用户的轨迹。我们表明,已经通过梯度的平均来提供适度的隐私保护,这是联合平均所固有的。此外,我们提出了一种算法,该算法可以在本地应用,以策划用于本地更新的批次,以便在不伤害实用程序的情况下有效保护其位置隐私。最后,我们表明,参与FL的多个用户的效果取决于其轨迹的相似性。据我们所知,这是第一次研究DLG攻击在众群时空数据的环境中。
translated by 谷歌翻译